Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

1️⃣

Используйте GPU с включённым memory growth

По умолчанию TensorFlow может попытаться занять всю память видеокарты, что приводит к ошибке OOM. Решение — включить «постепенное» выделение памяти:

gpus = tf.config.experimental.list_physical_devices('GPU')
if gpus:
    for gpu in gpus:
        tf.config.experimental.set_memory_growth(gpu, True)

2️⃣

Оптимизируйте загрузку данных с `tf.data`

Загрузка Excel-файла — типичное узкое место (Disk I/O). Использование tf.data.Dataset с prefetch позволяет загружать и обрабатывать данные асинхронно.

Пример:

dataset = tf.data.Dataset.from_generator(
    data_generator,
    output_signature={col: tf.TensorSpec(shape=(), dtype=tf.float32) for col in data.columns}
).shuffle(1000).batch(32).prefetch(tf.data.AUTOTUNE)

📎 Вывод:
GPU и tf.data с правильной настройкой дают мощный прирост производительности. Особенно важно при работе с крупными ML-пайплайнами и в продакшене.

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

www.tg-me.com/sg/Библиотека data scientist’а | Data Science Machine learning анализ данных машинное обучение/com.dsproglib/6445

1.5K viewsMay 16 at 06:52

tg-me.com/dsproglib/6445

Create: 2025-05-16
Last Update: 2025-05-25 21:21:34

🚀 Как ускорить Python-код для ресурсоёмких задач

При работе с большими объёмами данных Python может «тормозить», особенно при обработке сотен тысяч строк или обучении сложных ML-моделей.

🎯 Ниже — два приёма, которые позволят ускорить обучение и загрузку данных в десятки раз.

1️⃣ Используйте GPU с включённым memory growth

По умолчанию TensorFlow может попытаться занять всю память видеокарты, что приводит к ошибке OOM. Решение — включить «постепенное» выделение памяти:

gpus = tf.config.experimental.list_physical_devices('GPU')
if gpus:
    for gpu in gpus:
        tf.config.experimental.set_memory_growth(gpu, True)

2️⃣

dataset = tf.data.Dataset.from_generator(
    data_generator,
    output_signature={col: tf.TensorSpec(shape=(), dtype=tf.float32) for col in data.columns}
).shuffle(1000).batch(32).prefetch(tf.data.AUTOTUNE)

Библиотека data scientist’а | Data Science Machine learning анализ данных машинное обучение Telegram | DID YOU KNOW?

🚀 Как ускорить Python-код для ресурсоёмких задачПри работе с большими объёмами данных Python может «тормозить»